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методи обмеження порядку їх слідування. Описуються особливості реалізації системи розпізнавання 
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Рассматриваются проблемь, связанньєе с созданиєм систем распознавания речи на различньх 
вьтчислительньх платформах. Особоє внимание уделяєтся формированию базьт данньїх и знаний 
акустического, фонетического и лексического уровней. Моделируется связь акустической и лингвистической 
компонент системьт распознавания речевого сигнала, исследуєтся зффективность вьгюбора речевьтх 
злементов и применяются методь ограничения порядка их следования. Описьтваются особенности 
реализации системьт распознавания на архитектуре микропроцессоров ЦОС, включительно с возможностью 
удаленной обработки речевого сигнала. 
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кросс-платформенная система, распознавание речи. 
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Вступ 


Розпізнавання злитого мовлення в реальному часі дозволяє вирішувати широкий 
спектр прикладних задач у різноманітних областях людського життя. Аналіз патентів 
комерційних фірм 1 публікацій відомих наукових центрів світу показує, що останнім 
часом з'явилося багато програмних засобів диктування на ПК, а також мережні сервіси, 
які дозволяють усно формувати пошукові запити або диктувати листи електронної пошти. 
Всі найбільш продуктивні системи реалізують генеративну модель аналізу, розпізна- 
вання та розуміння мовленнєвого сигналу в тій або іншій модифікації | 1-31. 

Ефективність застосувань системи розпізнавання мовлення залежить від оціню- 
вання багатьох параметрів, а це досі не достатньо вивчено. Залишаються відкритими 
питання вибору елементів розпізнавання на різних рівнях та взаємозв'язку рівнів системи 
розпізнавання. 

Реалізація алгоритмів розпізнавання та синтезу мовлення в портативних пристроях 
є надзвичайно актуальною проблемою. Насамперед, це стосується алгоритму розпізна- 
вання великих словників, тобто пофонемного розпізнавання ізольованих слів, причому 
кількість слів у словнику, які система може розпізнати, складає 1000 елементів та більше. 

Найбільш актуальним є вирішення задач, пов'язаних з розпізнаванням злитого 
спонтанного мовлення та синтезом природною мовою довільного тексту. Це дало би 
змогу керувати голосом портативними пристроями, перекладати сказане іншими мова- 
ми, здійснювати голосовий пошук, розробляти діалогові системи тощо. 

У залежності від місця, де відбувається перетворення «вимовлена фраза - текст» 
та «текст - вимовлена фраза», програма розпізнавання та синтезу мови поділяється 
на ізольовані (сПепі-5ідє), клієнт-серверні (5етгуетг-5іде) та гібридні (Луфтіа). 

В ізольованих системах перетворення відбувається безпосередньо на мобільному 
пристрої. У клієнт-серверних системах мобільний пристрій використовується тільки 
для введення інформації з подальшою її передачею по мережі на сервер для обробки 
та отримання від сервера відповіді розпізнавання або синтезованої фрази. 

Гібридні системи поєднують в собі функціональність ізольованих і клієнт-сервер- 
них: при наявності доступу до мережі вони використовують для перетворення сервер, 
при недоступності мережі - працюють як ізольована система. 

Прикладом реалізації ізольованої системи може бути система СееаУосаїі |41, 
прикладом клієнт-серверної системи є загальновідома бігі |5|, прикладом гібридної -- 
УоСоп Нурфнпіа |6). Кожний із підходів має свої переваги та недоліки. Ізольована система 
обмежена швидкодією та розміром доступної оперативної пам'яті сучасних мобільних 
систем, що в свою чергу накладає обмеження на розмір словника і збільшує час відпо- 
віді застосування. 

Клієнт-серверна технологія не має цих обмежень, але потребує для своєї роботи 
постійного підключення до глобальної мережі. Гібридна технологія, маючи, по суті, 
властивості двох попередніх технологій в одній системі, є найбільш гнучкою. 

Далі ми розглянемо загальну структуру розпізнавання мовлення, проаналізуємо 
ефективність її компонент окремо та разом, а також розглянемо особливості адаптації 
мовленнєвих систем до різних, в особливості, до портативних платформ. 


Загальна структура розпізнавання мовлення 


Вхідний мовленнєвий сигнал перетворюється в послідовність акустичних векто- 
рів-ознак У, з (у, За у в результаті постпроцесингу. Потім декодер намагається 
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відшукати послідовність мовленнєвих сегментів, заданих символами м», з (мо М сь Му ) ; 
яка найбільш ймовірно відповідає У, яка спостерігається: 
У з агетах Р(м | у) з агетах РУ | уу) Р(м). (1) 
му му 


Еквівалентність правої частини виразу, що випливає із застосування правила 
Байєса, представляє базове формулювання генеративної моделі розпізнавання мовлення. 
Акустична -- РУ | и) та лінгвістична -- Р(и) - складові генеративної моделі, описуються 
кожна своїми стохастичними породжувальними граматиками. 

Акустична модель кожного зі слів у/ формується в результаті композиції моделей 
базових мовленнєвих елементів, тобто фонем, які складають фонемну транскрипцію 


слова а функ). Для моделювання екстралінгвістичних явищ, властивих спонтан- 


ному мовленню, в алфавіт базових елементів, додатково до фонем і фонем-пауз, вводять- 
ся символи, які відображають неінформативні звуки. 

Загальноприйняті системи пофонемного розпізнавання оперують алфавітом фонем, 
контекстно-залежних або контекстно-незалежних, з яких будуються мовленнєві образи 
слів. Вже на послідовності слів накладаються обмеження шляхом введення лінгвістичної 
моделі на основі породжувальних граматик або статистичної моделі, враховуючи кон- 
тексти слів. 

На рис. 1 зображено загальну структуру системи автоматичного розпізнавання зли- 
того мовлення, яка є спільною для ізольованих, клієнт-серверних 1 гібридних технологій. 


; Модулі реального час 
ян Робочі 
Препроцесор словники 
Детектор голосової Декодер Лінгвістична 
активності модель 
добрий дені шановний 
бажаю приєйно провести час 
она Акустична 
модель 


Вхідний Відповідь 


мовленнєвий розпізнавання 
сигнал 


База даних і знань 


Рисунок 1 - Структура автоматичного розпізнавача злитого мовлення 


До модулів реального часу надходить мовленнєвий сигнал через одне із доступних 
джерел: мікрофон, файлова система, звуковий запит з віддаленого пристрою тощо. При 
проходженні через детектор голосової активності сигнал розбивається на сегменти за 
ознакою спостереження голосового введення. Використовуються прості акустичні 
ознаки в амплітудно-часовому просторі на основі поточної амплітуди та кількості перехо- 
дів через нуль. Модуль препроцесора переводить сигнал у простір первинних векторів- 
ознак. При цьому використовується мел-кепстральне перетворення з відніманням 
середнього значення. Декодер проводить порівняння вхідного мовленнєвого сегмента 
з гіпотезами еталонного сигналу допустимих послідовностей слів із робочих словників, 
застосовуючи деяку обережну стратегію відкидання малоперспективних гіпотез. Для 
цього використовуються дані з акустичної та лінгвістичної моделей. Послідовність слів, 
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за якою генерується еталонний сигнал, найбільш схожий на вхідний сигнал, оголошуєть- 
ся відповіддю розпізнавання. 

В ізольованих системах розпізнавання мовлення модулі реального часу та всі ком- 
поненти бази даних і знань знаходяться безпосередньо на портативному пристрої. Клієнт- 
серверні системи передбачають розміщення детектору голосової активності на пристрої, 
у той час як препроцесор може перебувати як на серверній, так 1 на клієнтській частині. 
Декодер із базами даних і знань перебуває на сервері. У гібридних системах розташуван- 
ня як модулів, так і компонент бази даних і знань варіюється. 


Формування баз даних та знань для систем розпізнавання 
мовлення 


База даних та знань для системи розпізнавання мовлення включає робочі словники, 
а також акустичну та лінгвістичну моделі. 

У робочому словнику містяться варіанти вимовляння для кожного зі слів лексико- 
ну, який припускається. Графемно-фонемні перетворення потрібні для формування слов- 
ників вимовляння при оцінці параметрів акустичної моделі та композиції акустичних 
моделей слів на етапі декодування. Використана система багатозначного транскрибуван- 
ня орфографічних текстів використовує кінцевий автомат, який передбачає можливість 
таблично задавати контекстно-залежні правила перетворення одних узагальнених послі- 
довностей символів на інші |7|. Застосування багатьох правил дозволяє генерувати одразу 
декілька варіантів транскрипції одного і того ж слова, або генерувати потрібний варіант 
із декількох можливих, наприклад, описуючи спонтанне мовлення диктора або групи дик- 
торів. 

Можливість генерувати одразу декілька варіантів транскрипції одного 1 того ж сло- 
ва дозволяє продемонструвати в словнику варіантність вимови найбільш частотних 
українських слів, редукцію та розтягнення слів під час швидкого темпу мовлення, нечітку 
вимову та подібні явища нарівні з літературним варіантом вимовляння. Також система 
транскрибування дозволяє генерувати транскрипції для таких специфічних підсловників, 
як суржик, соціальні та територіальні діалекти, абревіатури тощо. 

Зв'язок словника з акустичною та лінгвістичною моделями здійснюється за іденти- 
фікатором (іменем), доповненому ймовірністю приналежності до кластера слів для моде- 
лей, основаних на класах слів, які дають змогу суттєво зменшити обсяги лінгвістичної 
моделі |81. 

Параметри акустичної моделі оцінюються на основі мовленнєвого корпусу, 
що складається зі структурованої множини мовленнєвих фрагментів, текстового опису 
цих фрагментів, а також інструментарію для оперування всією множиною даних корпусу. 

Одним зі способів формування мовленнєвого корпусу є запис диктора, який зачитує 
деякий текст, в якому міститься все фонетичне розмаїття українського мовлення. Це дає 
змогу уникнути етапу ручного транскрибування та сегментування, а також одночасно 
формувати тестовий корпус (ТК), який відповідає досліджуваній предметній області. 
Формування такого тексту відбувається на основі електронних текстів, що знаходяться 
у вільному доступі в Інтернеті. 

У процесі формування тексту навчальної вибірки (НВ) злитого мовлення проводи- 
лося перетворення чисел, символів і скорочень на послідовності графем, графеми 
перетворювалися на фонеми |7| з наступним використанням процедури, що дає змогу до- 
сягнути суттєвого скорочення тексту НВ без втрати фонемного розмаїття |9|. На етапі 
обробки тестового корпусу і формування НВ розглядалися фонеми-трифони як базові 
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мовленнєві образи, оскільки вони мають регулярну структуру і дають можливість моде- 
лювати фонемне різноманіття, враховуючи правий та лівий звукові контексти. 

Для формування НВ ізольованих слів використовувалися частотний словник українсь- 
кої мови та лексикографічна система УМІФ. Кількість фонем-трифонів, що належать 
обом словниковим вибіркам, складає приблизно 15 тис. елементів. При цьому 12 тис. фо- 
нем-трифонів належать тільки НВ на основі словника УМІОФ, а 3 тис. - тільки НВ частотно- 
го словника. Обсяг словника НВ ізольованих слів склав 13 тис. слів (біля 12 годин запису). 

Для перевірки ефективності використання мовленнєвих образів, тобто фонем, 
відкритих складів та складів, отриманих за правилами складоподілу, формувалися тексти 
контрольної вибірки (КВ) злитого мовлення і проводилася процедура запису в умовах, 
аналогічних запису НВ. 

Перший спосіб вибору тексту КВ оснований на тому, щоб перевірити розпізна- 
вання часто вживаних слів, речень, фраз, тобто сформувати КВ за частотою фонем-три- 
фонів - «частотну» КВ. Отримана КВ містить три з половиною години запису та дозволяє 
відслідкувати помилки при розпізнаванні фонем у всіх типових контекстах. Обсяг 
словника складає 3 тис. слів. Загальна кількість реалізацій слів - приблизно 9 тис. 

Другий спосіб полягає в формуванні КВ випадковим чином із тих самих текстів, 
з яких вибирався текст НВ, але із забороною вибору тих речень, які увійшли до НВ. 

Отримана «випадкова» КВ містить чотири з половиною години запису та є най- 
більш типовою для вибору предметної області, тобто помилка розпізнавання в ній буде 
мати найбільш характерне значення вибраної предметної області. 

Обсяг словника складає 10 тис. слів. Загальна кількість реалізацій слів - приб- 
лизно 23 тис. 

Остання КВ вибиралася із текстів, які не використовувалися ні для формування 
попередніх КВ, ні для НВ. Для цього із сайту україномовної Вікіпедії випадковим 
чином вибрано 100 МБ текстів - КВ «Вікіпедія» (три години запису). Обсяг словника 
складає більше 7 тис. слів. Загальна кількість реалізацій слів - 16 тис. 


Збільшення ефективності акустичної моделі 


В якості композитного мовленнєвого елемента розпізнавання за допомогою декоде- 
рів НТК та ЛаПиз |2|, (10) були взяті фонеми (всього 59), відкриті склади (всього 7 270) 
та склади, поділені за правилами українського складоподілу (всього 10 200). 

Були проведені експерименти з дослідження впливу змісту НВ акустичної 
моделі на розпізнавання. Розглядалися такі варіанти акустичної моделі 
розпізнавання: модель, побудована тільки на злитому мовлені; модель, яка об'єднує 
злите мовлення та ізольовані слова; модель, яка не враховує або враховує лише 
частково наголошеність голосних. 

В експериментальних дослідженнях оцінювалися показники фонемної помилки 
(РЕК -- Рйопете Емгог Кате), що відображають відношення між різницею правильно 
розпізнаваних фонем і помилкових вставок до загальної кількості фонем. 

У табл. 1 представлені результати фонемної помилки розпізнавання при вико- 
ристанні різних акустичних моделей. 

Порівнюючи результати, наведені в табл. 1, бачимо, що використання акустичної 
бази НВ ізольованих слів на додаток до НВ злитого мовлення приводить до зменшення 
фонемної помилки. 

Це можна пояснити тим, що акустична база ізольованих слів враховує кількість 
реалізацій кожної фонеми. Також наявність коротких синтагм сприяє покращенню 
результатів розпізнавання, оскільки саме короткі синтагми найбільш характерні 
для людського мовлення. 
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Таблиця 1 - Показники фонемної помилки розпізнавання РЕК (У) для КВ 
злитого мовлення на основі різних мовленнєвих образів, використовуючи різні 
акустичні моделі (злите мовлення - ЗМ та ізольовані слова - ІС) інструментарієм НТК 


Фонема Відкритий склад Склад за правилами 
складоподіл 
Назва КВ оиьанно 
Акустична модель, що використовується 

ЗМ ЗМ Ч ІС ЗМ ЗМ - ІС ЗМ ЗМ -ЧІС 
«Випадкова» КВ 28,86 25,6 24,92 23,06 24,54 21,34 
«Випадкова» КВ 2139 20,96 17,68 17,00 1729 1836 
(без наголосу) 
«Частотна» КВ 36,6 26,7 33.15 23.22 - 22.33 
«ЕОРНОМЕВ 26,1 21,56 2795 1749 я 18 
(без наголосу) 
КВ «Вікіпедія» 31,93 30,76 28,01 28,53 28,13 29,35 
ЕРА РІШАд пр» 24,72 24,52 28,81 22,02 21,00 22,88 
(без наголосу) 

Акустичні моделі розпізнавання будувалися, враховуючи наголошеність голосних. 


На письмі наголос зазвичай не указується. У табл. І після розпізнавання було вида- 
лено інформацію про наголоси. Це штучним чином збільшило надійність розпізнаван- 
ня на декілька відсотків. 

А чи вплине на надійність розпізнавання, якщо в акустичній моделі не врахову- 
вати наголос голосних? Для дослідження цього була створена акустична модель, яка 
ігнорує ознаку наголошеності в алфавіті фонем. 

Також, щоб врахувати специфіку українського вимовляння, а саме редукцію не- 
наголошених 2, и до е", и" відповідно, була створена акустична модель, в якій були 
залишені тільки дві голосні е та и. 

В табл. 2 наведені показники помилки розпізнавання РЕК (9о) фонемного розпізна- 
вання при використанні вищезгаданих акустичних моделей фонем. 


Таблиця 2 - Показники фонемної помилки розпізнавання РЕК (У) 
без урахування наголошеності на різних акустичних моделях 


Акустична модель, яка використовувалася 
ЗМ ЗМ ЗМ я ЗМ З ІС ЗМ З ІС ЗМ ІС 
(наголос ІС (наголос (без (наголо- 
Назва КВ видалявся після видалявся наголосу шені 
розпізнавання) після під час тільки 
розпізнава- навчання) етаи) 
ння) 
«Випадкова» КВ 28,86 21,39 25,6 21,56 21,35 21,27 
«Частотна» КВ 36,6 26,1 26,7 20,96 2647 26,19 
КВ «Вікіпедія» 31,93 24,72 30,76 24,52 21,43 21,75 


Із табл. 2 випливає, що результати залежать як від способу формування акустич- 
ної моделі розпізнавання, так 1 від способу формування КВ. Результати, отримані на 
моделях тільки злитого мовлення, значно покращуються при об'єднані з моделями, 
побудованими на ізольованих словах. Слід зазначити, що результати досліджень, на- 
ведених у табл. 2, проводилися тільки для фонемного розпізнавання, -- інші мовленнєві 
образи не використовувалися. 

Ряд експериментів було проведено накладанням обмежень на послідовності елемен- 
тів, застосовуючи лінгвістичну модель на фонемно-морфемному рівні. У табл. 3 наведені 
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результати пофонемного та поскладового розпізнавання різних КВ, застосовуючи 
біграмні лінгвістичні моделі для фонем та складів. Ці лінгвістичні моделі будувалися 
на початковому текстовому корпусі, при цьому розрізнялися наголошені та ненаго- 
лошені фонеми. 


Таблиця 3 - Показники фонемної помилки розпізнавання РЕК (У) 
для КВ злитого мовлення на основі різних мовленнєвих образів, використовуючи 
біграмні лінгвістичні моделі інструментарієм НТК 


Фонема Відкритий склад Склад за 
Назва КВ правилами 
складоподілу 
«Випадкова» КВ 24,80 27,52 24,76 
«Випадкова» КВ (без наголосу) 18,22 21,26 17,03 
«Частотна» КВ 27,68 24,16 22,00 
«Частотна» КВ (без наголосу) 20,05 17,40 15,34 
КВ «Вікіпедія» 28,23 31,85 28,16 
КВ «Вікіпедія» (без наголосу) 21,28 25,06 21,34 


Порівнюючи результати розпізнавання, наведені у табл. І та у табл. 3, можемо 
зробити висновок, що накладання обмежень через лінгвістичну модель, навіть таку, 
що побудована на відносно невеликій кількості текстів, дає покращення надійності 
розпізнавання (напівжирний шрифт - покращення відносно показників табл. 1, похи- 
лений шрифт - найкращий результат для даної КВ). Застосування фонемно-морфем- 
ної ЛМ для «Частотної» КВ дали найкращі показники РЕК (У). Для КВ «Вікіпедія» 
покращення не суттєві, оскільки, як ми припускаємо, при формуванні цієї контрольної 
вибірки не застосовувався початковий текстовий корпус, тому сформовані статистичні 
поскладові моделі мають незначний вплив на розпізнавання. 


Адаптація системи розпізнавання мовлення 
до різних платформ 


В рамках Державної науково-дослідницької програми «Образний комп'ютер» була 
розроблена низка прототипів мобільних пристроїв, на яких реалізовані технології і алго- 
ритми розпізнавання та синтезу мовленнєвих сигналів. Вся лінійка мобільних пристроїв 
(цифровий диктофон, голосовий секретар та мобільний телефон) розроблялися на основі 
сигнальних процесорів Апа/оє Реуісез сімейства ВіасКЕіп. Для цих процесорів існує 
можливість запуску на них операційного середовища иСіІлпих, яке належить до сімей- 
ства //МІХ-подібних операційних систем, та базуються на вихідних кодах ядра ОС /.іпих. 
Використовуються три основних модуля -- СМО/ Тооіспаїп (крос-компілятор), Дах (/-Бооі 
(вихідні файли завантажувача), Гіпих Кетпеї! (вихідні файли ядра ОС иСІлпих). 

СМО Тооіснаїп (крос-компілятор) - спеціальний компілятор, який працює в опе- 
раційному середовищі /Діпих на персональному комп'ютері і формує виконуваний код 
для операційного середовища иСІ пих на основі сигнального процесора АД ВіаскКЕїп. 
Цей компілятор використовується як для крос-компіляції вихідних кодів ядра ОС иСІ іпих 
і завантажувача Даз (/-Рооі, так і для крос-компіляції модулів, написаних мовою програ- 
мування СС, для можливості їх виконання в середовищі иСІлпих. До складу компі- 
лятора входять такі основні модулі: компілятор єсс 1 єсс-еї (версії 3.4 1 4.1, що дає 
широкі можливості сумісності програм) 1 спеціалізована бібліотека для вбудовуваних 
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систем исіїБс. Для зручності крос-компілятор СМП Тооіспаїп надається у двох видах - 
у вигляді пакету грт та у вигляді архівів /аг.22. Також крос-компілятор існує в 2-х версіях -- 
для 32-бітних та для 64-бітних систем відповідно. Після встановлення пакетів весь 
функціонал буде доступний для використання стандартних методів процедури таке. 

Раз 0-Бооі (завантажувач) - комп'ютерний завантажувач операційних систем, 
орієнтований на вбудовані пристрої архітектур МІРУ, АКМ та інших. Після крос-ком- 
піляції може бути записаний у Кі/а5п-КОМ платформи. Після чого код завантажувача 
виконується при запуску системи, що дає змогу завантажити в пам'ять та запустити 
ядро ОС иСІпих. 

Іпих Кетпеї (ядро ОС иСІпих) - центральна частина операційного середовища 
иСіпих, забезпечує різним процесам координований доступ до ресурсів комп'ютера, 
таким як процесорний час, оперативна пам'ять та зовнішнє апаратне забезпечення, 
та реалізовує функції файлової системи. 

При розпізнаванні окремих слів система розпізнавання оперує тільки словником 
та акустичними моделями із бази даних та знань. Розпізнавання злитого мовлення 
потребує підключення породжувальних граматик у формі Бекуса-Наура або статистич- 
ної лінгвістичної моделі |2). В останньому випадку декодер на початку використовує 
біграми, далі у вузлах сформованого графа динамічного програмування уточнюються 
значення часткової міри схожості із залученням У-грам, М? 2. 

Декодер реалізований мовою програмування С на основі (10) для персонального 
комп'ютера та адаптований для можливості крос-компіляції до мікропрограмного коду 
операційного середовища иСІпих сигнального процесора ВЕ-561. 

Результати розпізнавання ідентичних фрагментів мовлення на ПК та на порта- 
тивних пристроях збігаються з точністю до 6-го знаку після коми. Уніфікація програм- 
ного коду дає змогу всі дослідження проводити на персональному комп'ютері. 

Також була розроблена система, яка реалізує клієнт-серверну ідеологію. При цьому 
клієнтські програми розроблялися мовою дуа для найбільш розповсюдженої 
мобільної платформи Апагоїа. У клієнтському ПО реалізована можливість запису 
мовленнєвого сигналу, що розпізнається, набору тексту для подальшого озвучення 
та обміну інформацією зі своїми серверами. Серверне ПО розроблялося мовою РНР 
(отримання даних від клієнтів) та СУ (розпізнавання та синтез мовленнєвих сигналів). 
Обмін даними між клієнтом та сервером відбувається за протоколом //р за допомогою 
стандартних процедур РОЗТ та СЕТ. Обсяг словника обмежується обчислювальними 
можливостями сервера. 

Обидва описаних підходи реалізації розпізнавання мовленнєвих сигналів на мобіль- 
них пристроях - ізольований та клієнт-серверний - закладають передумови до введення 
гібридного підходу, в якому передбачається спроба розпізнати мовлення безпосередньо 
на мобільному пристрої, а у випадку відмови розпізнавання - скористатися зв'язком 
із сервером. 


Висновки 


Проведений аналіз показав, що при адаптації модуля декодера до архітектури 
портативних пристроїв найбільш гнучкою є гібридна архітектура, яка дає змогу ви- 
користати одночасно переваги ізольованого та клієнт-серверного підходів. 

Підтверджено, що використання інформації про наголос є доцільним при форму- 
ванні акустичної моделі. Введення статистичних обмежень на порядок слідування 
елементів на фонемно-морфемному рівні дає змогу в цілому підвищити надійність 
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пофонемного розпізнавання. Це наближає перспективу реалізації багаторівневої моделі 
перетворення мовлення на текст. 

Опрацьовано середовище для розроблення систем розпізнавання та синтезу мовлен- 
ня на різних платформах. Це дасть змогу ефективно розробляти та випробовувати від- 
повідне програмне забезпечення. 

Подальші дослідження планується присвятити моделюванню взаємовпливу 
звуків у потоці мовлення, індивідуалізації параметрів моделі розпізнавання та інтегра- 
ції з технологією озвучення текстів. Вплив ряду параметрів декодеру на надійність 1 
швидкість також є предметом майбутніх досліджень. 
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Ргобіет5 0/ Сто55-ріайогт Уреесі Кесоєпійоп 5узіет Стеапоп 

Трі8 рарег соп5ідег5 (бе ргобіетя аззосіакед мб Феуеіортепі ої а 5зреесії гесорпіноп 
зузіет оп дНегепі согарийте, ріаїбогтл8. Ветоїе, оп-Боага апа Пубгій 5узіеті агсріїестигеє 
аге апаЇугей. Тре мауз їо адарі ре 5реесії гесоспійоп согаропегпія їог сго55-ріайогі геаї- 
тайоп аге ргорозей. 

Рагіїсиіаг айепіїоп 15 бїуеп (0 Ме дага апа Кпом/едое Ба5е Юогтіпє Їог асоцебїс, 
рбопейс апа Іехіса! Іеуеі5. 5реесі гесоєпійоп ге8иікя аге сотпрагей бг а уагіеїу ої асоц5іїс 
тодеіз. Атопяе, Шепа аге: сопіїпиоц5 5реесі Базед тодеї! м'іїб ог утібоцпі ізоЇагед мога 
сопабіліпє, уліб ог муїНоці Іехіса! 5іге85 соп5ідегайоп іпстидте зресійс Кеаїигез ої сегіаїп 
ОКктаїіап уоуусівз. 

Кеїапноп Бегуееп 5реесі гесоєпійоп асоц5іїс апа Ппеціяйцо сотропепіз 15 Беїпє то- 
деіед а5 ме! аз 5роКеп еіетепі 8еЇесііоп Ба5 Беєп іпуе5ідаїсй. Арріїед еЇіетепі огаег 
соп5ітаїпіпе, 5:анвіса! плешподя 5помеай рготіяште гезиіїя бог рропетез апа бо гурез8 ої 
зуПабіе8 еуеп їп сопайоп ої геЇайуєїу япа!! ігаїпіпе даїа. 

Абзресія ої десодег ипійсаноп оп їБе Ю)5Р тісгоргосез5ог агспітестиге іпсіцаїпо, Бе 
роз8ірШу ої вреесі 58ієпа! гетоїе ргосеззіпо, аге Фезсгібед. 
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